摘要。6-DOF GRASP检测一直是机器人视觉中的一个基本和挑战问题。虽然以前的作品着重于确保掌握稳定性,但他们通常不考虑通过自然语言传达的人类意图,从而阻碍了在复杂的3D环境中的机器人和用户之间的有效协作。在本文中,我们提出了一种新的方法,用于在混乱的点云中以语言驱动的6-DOF掌握检测。我们首先引入Grasp-Anything-6D,这是一个大型数据集,用于语言驱动的6-DOF GRASP检测任务,其中1M点云场景和超过200M语言相关的3D抓取姿势。我们进一步引入了一种新型的扩散模型,该模型结合了新的负面及时指导学习策略。拟议的负及时策略将检测过程指向所需的对象,同时鉴于语言的使用,将检测过程转向不需要的对象。我们的方法启用了一个端到端框架,其中人类可以使用自然语言在混乱的场景中掌握所需的对象。密集的实验结果显示了我们方法在基准测试实验和现实情况下的有效性,超过了其他基线。此外,我们还证明了在现实世界机器人应用中的实用性。我们的项目可在https://airvlab.github.io/grasp-anything上使用。
主要关键词